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摘 要 : [目的 /意义 ] 文 章 的 被 引 频 次 一 直 是 量化 评价 一 篇 论文 学 术 影 响 力 的 重要 指标 。 但 在 不 同学 科 不 同年 份 发 表 的 
论文 会 因 该 领域 研究 论文 数 、 引 用 滞后 等 因素 呈现 较 大 的 差异 。 因 此 在 对 比 两 篇 论文 时 ,难以 简单 依据 被 引 频 次 
的 绝对 值 来 评判 论文 影响 力 大 小 。 为 此 ,本 文 设计 了 一 个 新 的 可 计算 数学 模型 ,使 得 每 篇 论文 可 以 有 一 个 标准 化 
的 指标 ,以 便 对 不 同学 科 不 同年 份 发 表 的 论文 的 学 术 影 响 力 进行 直接 比较 。|[ 方法/ 过程] 通过 分 析 2006 、2017 两 
年 中 国 科 技 类 学 术 期 刊 各 学 科 论文 的 被 引 频次 分 布 规律 ,采用 同学 科 论 文 被 引 频次 的 分 布 形态 最 接近 对 数 正 态 


分 布 的 先 设 条 件 ,提出 一 种 被 引 频 次 标准 化 指数 
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Paper Citation Standardized Index ( 简称 PCSI, 中文“ 论文 引证 
标准 化 指数 ”) 。 最 后 以 中 国 科 协 优秀 科技 期 刊 论文 评选 结果 为 例 , 将 它们 与 论文 所 属 学 科 全 部 论文 进行 实证 对 
比 研究 。[ 结果 /结论 ] 结果 证 明 ,PCSI 对 不 同年 份 \ 不 同学 科 论 文 的 被 引 频 次 进行 了 标准 化 ,反映 了 被 引 频 次 的 线 
性 差距 ,是 一 种 较为 理想 的 单 篇 论文 学 术 影响 力 比较 评价 工具 。 
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2020 年 2 月 17 日 ,科技 部 发 布 了 《关于 破除 科技 
评 人 中 * 唯 论文 "不 良 导向 的 若干 措施 (试行 )》, 文 件 
中 获 出 “强化 代表 作 同 行 评 议 ,实行 定量 评价 与 定性 评 
从 根 结合 .这 就 从 科技 政策 层面 ,改变 了 过 去 以 论文 
数 写 尤其 是 “以 刊 论文 "的 评价 导向 ,更 突出 了 代表 
性 捷 作 的 价值 。 事 实 上 ,很 多 高 校 也 已 经 开始 采用 代 
玫 久 评价 制度 ,但 如 何 避 免 人 情 关系 ,如 何 实施 定量 点 
定性 相 结合 的 评价 ,已 有 很 多 学 者 进行 了 研究 。 
代表 作 评 价 的 核心 是 对 单 篇 论文 的 评价 。 为 了 科学 合 
理 地 开展 代表 作 评价 , 仍 需 参 考 论文 的 外 部 指标 ,尤其 
是 论文 的 被 引 频次 。 事 实 上 ,论文 的 引证 指标 ,反映 了 
专业 读者 对 于 论文 价值 的 客观 认可 表现 ,不 应 完全 按 
弃 , 而 应 合理 使 用 。 在 实际 的 评价 应 用 场景 中 ,经 常会 
用 到 跨 学 科 跨 年 度 单 篇 论文 的 比较 问题 ,但 不 同学 科 
不 同年 份 发 表 的 论文 因 该 领域 研究 论文 数 .引用 滞后 
等 因素 呈现 较 大 的 差异 ,因此 在 对 比 两 篇 论文 时 ,不 能 
简单 根据 被 引 频次 的 绝对 数值 大 小 来 评判 论文 影响 力 
大 小 。 


学 科 标 准 化 方法 是 消除 论文 被 引 次 数 指标 上 的 学 
科 差 异 的 数学 方法 。 和 荷兰 莱 顿 大 学 的 科学 技术 元 勘 中 
心 (CWTS ) 物理 学 家 A. Raan 的 工作 组 在 1980 年 代 初 
期 就 确定 了 评价 方法 中 ,在 每 一 领域 的 国际 比较 时 ,要 
对 被 引 次 数 进行 标准 化 处 理 , 将 被 评估 对 象 的 科研 业 
绩 与 国际 基准 线 进行 对 比 。 该 指标 以 前 被 称 为 Crown 
Indicator( 皇冠 指标 )”" 。 张 志 辉 ”系统 论述 了 学 科 
标准 化 的 原则 和 评价 标准 ,比较 了 两 种 常见 线性 学 科 
标准 化 方法 一 一 比 均值 法 和 z-score ,还 有 一 种 非 线性 
标准 化 方法 一 一 百 分 位 数 等 级 法 (Percentile Rank 
Method) 。 其 中 , 比 均值 法 被 提出 的 时 间 较 早 , 在 各 种 
各 样 的 学 科 标准 化 方法 中 比 均值 法 是 最 典型 .最 具 代 
表 性 且 迄 今 为 止 最 常用 的 方法 。Z-Score 则 同时 利用 
分 布 的 集中 趋势 和 离散 趋势 ; 百 分 位 数 等 级 法 将 论文 
的 被 引 次 数 转换 成 学 科 引 文 分 布 中 的 一 种 位 置信 息 。 
张 志 辉 认为 ,标准 化 应 保持 被 引 次 数 的 等 间距 属性 ,也 
就 是 应 该 采用 线性 变换 方法 ,并 提出 了 基于 最 优化 的 
线性 标准 化 方法 ,但 这 种 方法 需要 首先 确定 一 个 共同 
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的 参考 分 布 工 作为 各 学 科 引 文 分 布 逼近 的 目标 ” 。 
Vets A oup tI 均 提 出 可 以 从 节点 文献 的 参 
考 文献 .引证 文献 两 个 角度 进行 单 篇 论文 的 评价 。 何 
春 建 ”认为 论文 的 影响 力 应 该 包含 下 面 3 种 影响 力 : 
累计 综合 影响 力 、 年 度 新 增 影 响 力 、 当 下 影响 力 ,并 提 
出 了 TYF TVFCn) 以 及 VF(t) 等 单 篇 论文 影响 力 评 
价 指 标的 算法 ,其 消除 学 科 和 发 表 年 差异 采用 的 方法 
是 比 均值 法 。 曹 进军 以 同一 机 构 同 学 科 领 域 的 全 
部 论文 和 顶级 论文 平均 值 将 同学 科 论 文 划 分 为 三 段 进 
行 标准 化 ,其 中 考虑 到 了 不 同 被 引 频 次 段 论文 的 贡献 


J£. EI VI PIU E E BRI SCR ARS P AI: Y. Eom 和 S. 
Fortunato 对 期 刊 Physical Review D 从 创刊 到 1997 的 被 
引 频 次 数据 进行 分 析 , 检验 了 三 种 分 布 : 究 律 分 布 
(Power Law Distribution ) 、 对 数 正 态 分 布 (Lognormal 
Distribution) ,4£ fv AE f& ^y fn (Shifted Power Law Distri- 
bution) , $8 HOSPBOE 521 48 FERE ER 4) 8 9f [HIE h 
线 右边 的 拟 合 度 不 好 ”| 。A.、 Chatterjee 等 研究 了 机 
构 ,期刊 的 被 引 频次 分 布 ,发 现 (被 引 频 次 )/( 该 年 该 
学 科 平 均 被 引 频次 ) 服从 对 数 正 态 分 布 ,但 是 最 大 被 引 
频次 反而 服从 寡 律 分 布 ”  。E.， Vieira 等 研究 的 是 不 


不 同 。 陈 小 清 等 ' 将 引证 文献 分 成 三 个 部 分 : h 核 .h 
尾 和 有 零 被 引 部 分 ,并 构建 学 术 和 矩阵 ,最 后 通过 和 矩阵 的 迹 
来 度量 论文 的 学 术 质量 。 然 而 ,有 关 单 篇 文献 定量 评 


影响 力 指标 。 该 指标 在 爱 思 唯 尔 的 Scopus 数据 

BD 命名 为 Field-Weighted Citation Impact (FWCI) ^" , 
dps n dz InCites 数据 库 中 的 命名 为 Category Nor- 
malízed Citation Impact ( CNCI) ®" ,由 于 两 个 指标 均 采 
用 同一 种 标准 化 方法 , 本文 在 下 面 的 讨论 中 统一 以 
CNCI 来 代表 此 类 算法 。 
“三 然而 ,由 于 被 引 频次 分 布 客观 上 不 是 对 称 的 ,因此 
上 十 多 种 标准 化 方法 模型 都 没有 很 好 解决 标准 化 问 
题 。 被 引 频 次 除 以 学 科 均 值 反映 的 是 被 引 频 次 与 学 科 
平均 值 之 间 的 关系 。 而 对 于 被 引 频 次 来 说 ,由 布 拉 德 
福 定律 可 以 得 知 学 科 平 均值 并 不 能 很 好 地 反应 大 多 数 
的 被 引 频 次 。 更 为 重要 的 是 ,一 篇 高 被 引 论 文 并 不 等 
于 若干 篇 低 被 引 论 文 的 累积 ,被 引 频 次 越 高 难度 越 大 ， 
也 越 稀缺 。 这 好 比 一 颗 10 克拉 的 钻石 绝 不 等 于 100 
颗 0. 1 克拉 钻石 的 价值 一 样 。 被 引 频 次 也 具有 这 种 越 
高 越 稀缺 的 属性 。 而 包括 CNCI 和 FWCI 在 内 的 各 种 


同学 科 不 同年 期 刊 的 被 引 频 次 分 布 问 题 。 他 提出 了 一 
个 新 的 计算 方法 ,混合 泊 松 指数 分 布 :假定 被 引 是 随机 
的 ,文章 获得 的 引用 次 数 是 泊 松 分 布 , 被 引 的 期 望 是 
首 数 形 的 ,经 积分 可 得 一 篇 文章 得 到 卡 次 被 引 的 可 能 
性 ,更 进一步 他 发 现 被 引 频 次 分 布 更 好 地 服从 双重 混 
HUNTER BU o S. Redner 人 研究 了 Physical Review 
期 刊 里 面 文章 的 被 引 频 次 问题 。 发 现 被 引 频 次 成 类 似 
PE dS 4 dg 。 M. Brzezinski 研究 了 Scopus TE 
1998 - 2002 所 有 文章 的 被 引 频 次 分 布 情况 ,其 中 最 有 
价值 的 是 他 对 各 个 常见 分 布 做 了 拟 合 优 度 检验 。 他 发 
现 小 一 半 的 学 科 服 从 短 律 分 布 , 拟 合 优 度 检验 合格 的 
学 科 里 面 ,对 数 正 态 分 布 , 尤 尔 分 布 (Yule Distribu- 
tion) , 移 位 需 律 分 布 在 绝 大 多 数学 科 都 比 单纯 的 寡 律 
分 布 要 好 ,但 是 差异 不 明显 ”。 国 内 有 关 被 引 频 次 分 
布 的 研究 不 多 ,但 也 有 学 者 对 个 别 学 科 论 文 被 引 频 次 
进行 了 研究 。 邓 匡 颖 等 研究 了 国内 1 007 篇 水 称病 毒 
论文 的 被 引 频 次 分 布 ,认为 与 寡 函数 和 洛 卡 特定 律 的 
拟 合 效 果 较 好 ,但 不 能 通过 柯 尔 摩 哥 洛 夫 - 斯 米尔 洛 
K ( Kolmogorov-Smirnov) 检 验 ,水 称病 毒 论文 累积 论文 
数量 比值 与 累积 被 引 频 次 的 比值 符合 布 拉 福 德 分 布 曲 
线 ”。 汪 跃 春 等 对 2004 年 发 表 的 图 书 情报 学 与 数字 
图 书馆 论文 样本 的 被 引 频次 分 布 进行 拟 合 分 析 , 得 出 
论文 被 引 频 次 分 布 曲线 与 布 拉 德 福 文献 分 布 曲线 基本 
一 致 ,但 在 0.5% 高 被 引 论文 的 被 引 频 次 高 于 正常 的 
曲线 分 布 ,同时 在 半 对 数 曲线 中 也 普遍 存在 “ 格 罗 斯 下 
E”, FERAN 6% -7% 的 结论 ”。 毛 国 敏 等 对 不 


比 均值 法 恰恰 忽视 了 这 种 差异 。 因 此 需要 进一步 研究 
被 引 频次 的 分 布 ,并 提出 更 能 揭示 论文 价值 的 标准 化 
方法 。 
l 被 引 频 次 的 分 布 

采用 何 种 方法 进行 标准 化 , 需 根据 被 引 频次 的 分 
布 规律 进行 科学 的 选择 。 关 于 被 引 频 次 分 布 规律 的 研 


同学 科 类 别 载 文 规模 和 学 术 影 响 力 的 3 种 期 刊 研究 
得 出 “期 刊 论文 被 引 频次 存在 适 律 现象 ,论文 被 引 的 概 
率 与 被 引 频 次 的 常数 血 存 在 简单 的 比例 关系 ”的 结 
论 ”。 以 上 研究 并 未 对 我 国 科技 论 文 的 被 引 频 次 分 
布 开展 大 范围 系统 性 研究 ,但 为 本 研究 提供 了 可 借鉴 
的 方向 。 

本 文采 用 中 国 知 网 2006 .2017 年 发 表 科 技 期 刊 论 
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文 数据 ,按照 年 ,学科 对 论文 进行 分 组 ,分 析 不 同 组 的 
被 引 频 次 分 布 。2006 年 的 论文 已 发 表 15 年 之 久 ,早已 
超过 文献 引用 半衰期 ,其 被 引 频次 基本 稳定 ,反映 “ 老 
年 论文 ”的 被 引 频 次 状态 ;2017 年 的 论文 至 今 刚 发 表 3 
年 , 正 处 于 使 用 的 活路 期 被 引 高 峰 期 ,反映 了 “年 轻 论 


法 研究 其 分 布 规 律 。 结 果 显 示 , 被 引 频 次 分 布 更 接近 
对 数 正 态 分 布 或 指数 分 布 。 但 两 者 都 有 一 定局 限 性 。 
从 统计 检验 角度 而 言 , 不 能 说 它们 完全 服从 对 数 正 态 
分 布 或 指数 分 布 。 

取 对 数 后 的 被 引 次 数 与 正 态 分 布 的 Q-Q 图 ( 见 图 


文 ”的 被 引 频 次 状态 。 对 比 研 究 这 两 种 状态 的 被 引 频 
次 ,可 以 更 全 面 了 解 被 引 频 次 的 分 布 规 律 。 其 中 所 采 


2) 显 示 , 同 学 科 同 年 份 论文 被 引 频 次 与 对 数 正 态 分 布 
颇 为 接近 ,趋势 明显 。 但 不 少 学 科 / 年 份 数 据 也 显示 偏 


用 的 数据 以 中 国 知 网 检索 系统 的 学 科 导航 分 类 ,该 分 
类 是 基于 《中 国 图 书馆 分 类 法 》 进 行 的 论文 学 科 划 分 ， 
涵盖 了 理工 . 农 、 医 共 86 个 学 和 领域。 

本 研究 对 上 述 两 个 年 份 的 多 种 学 科 论文 的 被 引 频 
次 数据 ,借助 统计 软件 (如 RR 等 ) 对 其 分 布 类 型 进行 观 
察 分 析 , 主 要 是 通过 表示 分 布 偏 度 ( Skewness ) Jl E 
( Kurtosis ) 的 Gullen-Frey 图 及 更 直观 展示 分 布 规律 的 
Q4 图 (分 位 数 - 分 位 数 图 ) ,将 同一 学 科 同一 年 份 的 


离 对 数 正 态 分 布 或 指数 分 布 的 偏差 (消除 趋势 后 ) 并 
不 完全 是 随机 的 。 奉 把 数据 分 为 低 被 引 、 中 被 引 和 高 
被 引 三 部 分 , 则 消除 趋势 后 的 低 被 引 数 据 普遍 低 于 拟 
合 曲线 ,消除 趋势 后 的 中 被 引 数 据 与 对 数 正 态 分 布 巾 
合 较 好 ,高 被 引 则 较为 随机 。 

经 过 柯 尔 摩 哥 洛 夫 - 斯 米尔 洛 夫 检验 和 分 组 卡 方 
检验 ,发 现 无 论 是 与 指数 还 是 对 数 正 态 分 布 ,都 无 法 验 
证 被 引 次 数 与 上 述 分 布 拟 合 得 很 好 。 对 指数 分 布 而 


论 刻 被 引 频 次 分 布 与 常用 的 统计 分 布 进行 拟 合 比 较 。 
送 曙 分布 包 括 正 态 分 布 , 对 数 正 态 分 布 .指数 分 布 . 罗 
ELLAS ( Logistic Distribution ) , JI & ( Beta Distri- 
butign ) 及 伽 玛 分 布 ( Gamma Distribution) 等 。 在 使 用 
-将 每 组 数据 中 的 0 被 引 论文 剔除 。 其 中 ,2006 年 近 
基数 正 态 分 布 共 71 个 学 科 , 近 似 伽 玛 分 布 共 13 个 
丝 名 ;近似 贝塔 分 布 有 2 个 学 科 。2017 年 近似 对 数 分 


WETS 个 学 科 ; 近 似 伽 玛 分 布 7 个 学 科 ; 近 似 贝 塔 分 
WA 1 个 学 科 。2006 2017 年 被 引 频次 近似 对 数 正 态 
分 纵 的 学 科 论 文 比例 分 别 达 到 占 比 73. 70% 和 
89,06% 。 
“三 为 直观 地 展示 被 引 频次 分 布 ,下 面 每 种 方法 均 随 
ELEC 4 组 数据 加 以 说 明 。 

首先 用 Gullen-Frey 图 对 被 引 频次 分 布 进行 常见 分 
布 的 拟 合 。 被 引 次 数 为 离散 型 数据 ,在 数据 量 很 大 且 
没有 明显 跳跃 时 ,可 以 当 作 连 续 型 数据 来 处 理 。 如 组 
图 1 所 示 ,该 图 横 纵 轴 代表 偏 度 和 峰 度 ,右上 角 列 出 各 


F Q-Q 图 显示 中 部 及 尾部 偏离 较 大 ;而 对 于 对 数 正 态 
分 布 , 则 主要 是 因为 被 引 次 数 恒 为 非 负 整数 , 故 在 零 及 
附近 , 拟 合 不 佳 。 

根据 Q-Q 图 ,发 现 发 表 年 份 较 长 的 数据 (2006 年 ) 
比 近期 发 表 的 数据 (2017 年 ) 与 对 数 正 态 分 布 拟 合 更 
好 , 见 图 3。 
由 于 对 数 正 态 分 布 无 法 对 被 引 频次 为 零 的 文章 数 
量 做 出 正确 的 估计 ,经 过 Q-Q 图 比较 各 种 分 布 ,指数 分 
布 被 认为 是 在 低 引 用 时 拟 合 效果 较为 良好 的 分 布 。 即 
使 在 某 低 引 用 频次 值 处 有 峰 ,不 符合 指数 分 布 的 单调 
下 降 的 特性 ,但 结果 偏离 也 不 会 太 大 。 

综 上 所 述 ,本 文 认为 基于 对 数 正 态 分 布 与 指数 分 
布 进行 标准 化 ,都 有 一 定 的 合理 性 。 只 要 排除 零 引 用 
频次 情况 ,对 数 正 态 分 布 整体 上 更 为 适用 。 在 必须 考 
虑 零 引 用 时 ,在 低 被 引 频 次 段 , 则 可 以 用 基于 指数 分 布 
的 标准 化 方法 。 


2 了 PCSI 的 定义 及 计算 方法 


个 分 布 模型 的 图 例 。 观 测 对 象 ( 大 圆 点 Observation ) 与 
各 个 分 布 模型 的 距离 代表 着 与 该 模型 的 相似 度 。 例 
如 :2006 年 物理 学 的 被 引 频 次 作为 观察 对 象 位 于 代表 
对 数 正 态 分 布 和 伽 马 分 布 的 虚线 之 间 , 则 考虑 该 组 数 
据 分 布 接近 对 数 正 态 分 布 或 伽 马 分 布 ;2006 年 轻工业 
手工 业 的 被 引 频 次 落 在 代表 对 数 正 态 分 布 的 虚线 之 
上 , 则 考虑 该 组 数据 分 布 更 接近 对 数 正 态 分 布 。 

通过 Gullen-Frey 图 ,发 现在 所 有 常用 分 布 中 ,被 引 
频次 分 布 更 加 贴近 对 数 正 态 分 布 ,为 此 进行 进一步 拟 
合 检验 。 本 文采 用 Q-Q 图 (分 位 数 - 分 位 数 图 ) \ 柯 尔 
摩 哥 洛 夫 - 斯 米尔 洛 夫 检验 与 卡 方 拟 合 优 度 检 验 等 方 


基于 上 述 对 被 引 次 数 分 布 规律 的 研究 ,本文 提出 
一 种 论文 被 引 频 次 标准 化 指数 
Standardized Index ,简称 PCSI( 中 文 名 称 :“ 论 文 引证 标 
准 化 指数 ”) ,为 不 同年 不 同学 科 的 单 篇 论文 被 引 频 次 
比较 提供 基础 。 

PCSI 的 定义 及 计算 方法 如 下 : 

去 除 被 引 频 次 为 0 的 数据 , 设 x 为 同一 学 科 同 一 
年 的 被 引 频 次 ,此 时 * 为 大 于 0 的 正 整数 。 令 y= 了 In 
(x) 
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随机 抽取 4 个 学 科 被 引 频 次 分 布 拟 合 


从 上 到 下 为 :物理 学 .轻工业 手工 业 畜牧 与 动物 医学 外 科学 ; 左 图 :2006 年 , 右 图 :2017 年 
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2 随机 抽取 两 个 学 科 的 2006 年 复 被 引 频 次 拟 合 情况 
注 : 上 图 为 力学 ,下 图 为 矿业 工程 ; 左 图 :一 般 Q-Q 图 , 右 图 :消除 趋势 后 的 Q-Q 图 


Normal Q-Q Plot of 复 被 引 频次 Detrended Normal Q-Q Plot of 复 被 引 频 次 


0.2 
0 
o o 
o 
0.1 o9 
o o 
opat o 
: ge 
Kk: 
> 
"d 
E 00 
x 
如 
ES 
-0. 
-0.2 
0 1 2 3 4 0 1 2 3 4 
Observed Value Observed Value 


Transforms: natural logarithm 


Transforms: natural logarithm 


图 3 力学 的 2017 年 复 被 引 频次 拟 合 情 况 
注 : 左 图 :一 般 Q-Q 图 , 右 图 :消除 趋势 后 的 Q-Q 图 
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Hp y zIn(x)J& x 的 自然 对 数 , y D y 的 平均 数 ， 
5 为 其 标准 差 。 则 论文 引证 标准 化 指数 PCSI 定义 为 : 
x>0 
x-0 

所 以 将 PCSI 称 为 一 种 标准 化 指数 ,是 因为 当 * 服 
从 对 数 正 态 分 布 时 , 则 y 服从 正 态 分 布 ,而 标准 化 变量 
z 服从 标准 正 态 分 布 。 

例如 论文 A 是 发 表 于 2017 年 ,学 科 为 农作物 , 它 
的 被 引 频次 为 27, 取 对 数 后 为 3.30, 全 国 同 行 论文 ( 同 
样 发 表 于 2017 年 ,学 科 为 农作物 ) 的 被 引 频次 取 对 数 
后 平均 值 是 0.91( 对 应 被 引 频次 为 2. 48 ,该 学 科 论 文 
被 引 频 次 均值 为 3.75) ,标准 差 是 0.85( 对 应 被 引 频 次 
H06 ;1.76, 由 于 被 引 频 次 分 布 的 非 对 称 性 , 取 对 数 
后 侈 标准 差 在 均值 左右 两 侧 对 应 被 引 频次 数值 是 不 一 
PED) ,那么 论文 A 的 PCSI 就 是 。™ =16.58。 
进行 标准 化 处 理 后 ,不同 学科、 年 发 表 论 文 的 被 引 
频次 均 近 似 服从 标准 对 数 正 态 分 布 (y=0,0 =1) ,由 
数 正 态 分 布 的 数学 期 望 为 e'””, 可 以 计算 得 出 各 
E0 被 引 频 次 论文 的 理论 PCSI 平均 值 =1.65( 即 


e 
PCSI = | 
0 , 


3 5 CNCI 算法 对 比 


由 于 被 引 频 次 分 布 的 非 对 称 性 ,在 均值 左右 两 侧 ， 
相同 被 引 频 次 取 对 数 后 得 到 的 数值 是 不 一 样 的 。 例 
如 :在 被 引 频次 20 的 左 侧 , 被 引 频 次 从 10 提高 到 20, 
所 对 应 的 是 In20 - In10 =0.693 ,而 在 20 的 右 侧 ,被 引 
频次 从 20 提高 到 30 ,所 对 应 的 是 ln30 - ln20 = 0.405, 
也 就 是 说 , 当 被 引 频 次 越 高 的 时 候 ,要 想 提 高 相同 的 
y, 需 要 更 大 的 x, 也 就 是 需要 付出 更 多 的 努力 ,难度 更 
高 。 这 与 单 篇 文献 的 价值 属性 是 相符 的 ,也 与 当前 要 
求 少 发 垃圾 论文 ,鼓励 高 质量 代表 作 的 理念 是 相符 的 。 
而 CNCI 和 FWCI 则 没有 这 样 的 性 质 。 具 体 到 PCSI 与 
CNCI 指数 ,假设 3 篇 论文 被 引 频 次 分 别 为 10、20、30 
次 ,构成 一 组 ,分 别 计算 其 y、z、PCSI、CNCI 值 ,请 见 表 
1 ,论文 3 与 论文 2 de X 2 与 论文 1 的 被 引 频 次 差 值 均 
为 10 次 ,但 论文 3 与 论文 2 的 PCSI 差 值 为 1.277, 论 
文 2 与 论文 1 的 差 值 为 0.847, 体 现 了 同样 是 10 次 被 引 
频次 但 在 更 高 的 被 引 频 次 基础 上 价值 更 大 ,而 CNCI 的 
差 值 始终 是 0.5, 没 有 体现 这 种 差异 。 而 这 种 被 引 频 次 
越 高 越 难 的 差异 是 客观 存在 的 ,通过 数据 的 分 布 来 体现 
的 ,因此 PCSI 相 比 CNCI 更 好 地 反映 了 这 一 现象 。 


表 1 PCSI 与 CNCI 的 简单 对 比 示意 


本 文 以 中 国 科 协 第 1 -4 届 优 秀 科 技 期 刊 人 选 论文 
为 例 ,计算 各 学 科 论 文 的 PCSI, 并 与 CNCI 做 对 比分 析 。 
4.1 按 发 表 年 比较 研究 

中 国 科 协 第 1 -4 届 优 秀 科 技 期 刊 论文 共有 319 
篇 论文 匹配 知 网 数据 库 , 发表 于 2012 - 2019 年 ,属于 
85 个 学 科 〈 由 于 存在 一 篇 论文 有 多 个 学 科 的 情况 , 且 
PCSI 和 CNCI 均 为 学 科 内 标准 化 ,可 将 复 分 的 论文 视 
作 2 篇 , 故 以 下 统计 数据 基于 复 分 后 的 396 篇 进行 统 
计 分 析 ) 。 本 文 将 各 学 科 全 部 论文 提取 出 来 作为 对 照 
组 , 按 上 文 介 绍 的 方法 计算 每 篇 文章 的 PCSI。 全 部 论 
文 (对 照 组 ) 优秀 论文 各 年 统计 数据 见 表 2。 优秀 论 
文 的 篇 均 被 引 频 次 .篇 均 PCSI、 篇 均 CNCI 分 别 为 对 照 
组 的 13.50 倍 .13.36 45.12.27 倍 。 说 明 PCSI 和 CNCI 
均 基本 保留 了 被 引 频 次 差距 的 线性 关系 。 优 秀 论文 的 


论文 被 引 频 次 x y z PCSI PCSI 提高 CNCI CNCI 提高 
论文 1 10 2.303 -1.075 0.341 0.500 

论文 2 20 2.996 0.173 1.188 0. 847 1.000 0.500 
论文 3 30 3.401 0. 902 2.466 1.277 1.500 0.500 


PCSI 和 CNCI 都 远 远 高 于 对 照 组 ,说 明 被 专家 定性 遵 选 
的 优秀 论文 在 被 引 频 次 等 评价 指标 上 表现 同样 优秀 。 
从 发 表 年 被 引 频 次 差异 来 分 析 , 发 表 时 间 早 的 论 
文 要 高 于 发 表 时 间 晚 的 论文 ,这 是 因为 论文 被 引用 是 
发 生 在 后 续 研 究 中 的 行为 ,统计 论文 的 被 引 频次 必然 
存在 滞后 性 ,例如 :2012 年 论文 的 篇 均 被 引 频 次 为 6.69， 
而 2018 年 论文 的 篇 均 被 引 频 次 为 2.61, 前 者 是 后 者 的 
2.56 倍 ,因此 发 表 于 不 同时 间 的 论文 的 被 引 频 次 不 具有 
直接 可 比 性 。 而 PCSI 则 基本 可 以 跨年度 进行 比较 。 例 
如 :2012 年 至 2018 年 ,篇 均 PCSI 标准 差 仅 为 0.04。2019 
年 文献 发 表 仅 1 年 ,不论 被 引 频 次 还 是 被 引文 献 数量 均 
处 于 较 低 水 平 ,其 数据 不 具有 代表 性 ,即便 如 此 ,篇 均 
PCSI 2.47 ,与 2012 年 相 比 也 仅 相 差 1.4 倍 ,显著 小 于 篇 
均 被 引 频 次 的 差距 (6.69 :1.68) 。PCSI 各 年 均值 为 1. 80 
左右 ,可 以 看 做 其 与 理论 PCSI 的 平均 值 1.65 相近 ,但 也 
说 明 被 引 频 次 取 对 数 后 并 非 完 美 正 态 分 布 。 发 表 时 间 
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越 长 的 文献 平均 PCSI 值 越 接 近 1. 65 ,说 明了 发 表 年 份 | 较 长 的 数据 与 对 数 正 态 分 布 拟 合 更 好 。 
表 2 各 年 度 论文 与 优秀 论文 对 比 

全 部 论文 优秀 论文 
年 份 

篇 数 篇 均 被 引 频 次 篇 均 PCSI 篇 均 CNCI 篇 数 篇 均 被 引 频次 篇 均 PCSI 篇 均 CNCI 
2012 1 240 748 6.69 1.76 1.00 35 151.94 27.36 20.87 
2013 1272214 6.15 1.77 1.00 56 111.73 29.17 18.45 
2014 1 266 241 5.56 1.78 1.00 85 75.14 25.88 13.91 
2015 1271232 4.99 1.78 1.00 68 55.87 26.04 12.40 
2016 1 283 186 4.43 1.78 1.00 66 35.08 20.03 8.61 
2017 1 240 236 3.61 1.80 1.00 43 20.17 18.67 7.12 
2018 1 052 771 2.61 1.88 1.00 36 12.01 14.79 4.46 
2019 514 474 1.68 2.47 1.00 7 9.00 56.23 4.77 
合计 : 9 147 102 4.74 1.83 1.00 396 63.9 24.42 12.27 


4.0. 按 学 科比 较 研究 

各 学 科 论 文 的 被 引 频次 呈现 较 大 差异 ,通常 来 说 
跨 学 科 不 可 直接 比较 。 为 了 论证 PCSI.CNCI 对 各 类 学 
各 是 标准 化 效果 ， 本 文 从 理工 农 医大 类 各 抽取 了 若干 
学 入 ,兼顾 发 文 量 大 .中 、 小 各 种 情况 , 共 选 取 了 20 个 
见 表 3。 表 3 分 理工 农 医 四 组 , 列 出 2012 - 2019 
名 学 科 论 文 量 及 篇 均 被 引 频 次 .篇 均 PCSI、 篇 均 
CNG 数据 。 在 选取 的 20 个 学 科 中 ,各 学 科 被 引 频次 
ES JEU tf, fri hn: “AEA e" SERE RU RS A 
api GOV 2. 38 ,而 “环境 科学 与 资源 利用 "学 科 的 被 
Jul 7.49 ,后 者 是 前 者 的 3 倍 。 但 标准 化 以 后 的 


CN 


,篇 均 PCSI 最 小 的 学 科 为 中 医学 (1. 69) ,最 大 为 


A 


: ;作为 不 同 质 量 论文 的 对 照 , 表 3 列 出 了 各 学 科 人 
选 释 协 优秀 论文 的 数量 及 篇 均 被 引 频 次 和 篇 均 PCSI, 
RE CNCI。 从 表 3 中 ,同样 可 以 看 到 优秀 论文 的 篇 均 
被 钾 频 次 和 篇 均 PCSI、 篇 均 CNCI 均 远 远 高 于 同学 科 
所 有 论文 的 篇 均 被 引 频次 和 篇 均 PCSI 值 (大 于 3 倍 标 
准 差 ) 。 而 且 优秀 论文 篇 均 PCSI 与 同学 科 所 有 论文 的 
比值 为 15. 28( 即 28.07: 1. 84) ,而 优秀 论文 篇 均 被 引 
频次 与 同学 科 所 有 论文 篇 均 被 引 频 次 的 比值 17. 81 
( 即 94.28:5.29) ,二 者 大 致 相当 ,说 明 PCSI 基本 保留 
了 论文 之 间 被 引 频 次 的 差距 。 而 优秀 论文 篇 均 CNCI 
与 同学 科 所 有 论文 CNCI 的 比值 11.72( 即 11. 72: 1.00) , 
并 不 能 反映 论文 之 间 被 引 频次 的 差距 。 在 抽取 的 20 
个 学 科 中 ,篇 均 PCSI 为 1.81 ,各 学 科 的 PCSI 也 基本 转 
绕 1.80 左右 波动 ,这 与 理论 被 引 频次 非 0 论文 的 被 
频次 的 平均 值 1. 65( 即 ef) 也 非常 相近 。 


5 结论 


(1) 论文 发 表 后 的 被 引 频 次 ,作为 一 种 反映 论文 


学 术 影 响 力 的 外 部 指标 是 非常 重要 的 ,可 以 视 作 更 大 
Be cm Lada 
和 绩效 的 统计 中 ,还 是 在 代表 作 评 价 时 辅助 专家 

ion. 都 具有 重要 的 参考 作用 。 

(2) 由 于 论文 被 引 频 次 因 发 表 年 .学 科 存 在 很 大 
差异 ,不 能 直接 进行 比较 ,标准 化 以 后 使 被 引 频次 具有 
跨 学 科 跨 发 表 年 的 可 比 性 是 科研 评价 中 的 现实 需求 ， 
而 Web of Science 和 Scopus 采用 的 “学 科 规 范 化 论文 
影响 力 ”指数 并 未 考虑 被 引 频 次 分 布 , 存 在 可 以 改进 的 
空间 。 

(3) 通 过 文献 综述 和 实际 研究 中 国 知 网 2006、 
2017 年 科技 类 86 个 学 科 领 域 发 表 文献 的 被 引 频 次 ,发 
现 被 引 频 次 的 分 布 虽 不 能 完美 地 拟 合 任何 一 种 分 布 ， 
但 与 容 律 分 布 . 指 数 分 布 . 对 数 正 态 分 布 等 常用 分 布 都 
具有 一 定 的 相似 性 ,但 大 部 分 学 科 与 对 数 正 态 分 布 拟 合 
度 最 好 。 而 社 科 类 论文 的 被 引 频次 分 布 有 待 后 续 人 研究 。 

(4) 本文 提 出 以 对 数 正 态 分 布 模型 为 基础 设计 
PCSI( Paper Citation Standardized Index ,中文 名 称 :中 
知 网 “论文 引证 标准 化 指数 ”) ,该 指数 计算 方法 为 : 先 
对 非 零 被 引 频 次 x 取 对 数 y, 再 按 正 态 分 布 对 被 引 频次 


lib, zz 1608 y 的 平均 数 ， S 为 标准 差 ) ,由 


于 取 对 数 时 压缩 了 被 引 频次 的 真实 差距 , 需 对 z 取 指 
数 以 恢复 被 压缩 的 被 引 频 次 的 差距 。 即 :PCST= e, 
(5) 本 文通 过 中 国 科 协 优秀 论文 项 目 评选 的 2012 

-2019 年 各 学 科 优秀 论文 ,与 所 属 学 科 全 部 论文 进行 
对 比 研究 。 实 证 证 明 ,PCSI 在 跨 学 科 、 Gab ad 
可 有 效 消 除 被 引 频 次 绝对 值 的 差异 , 且 很 好 地 保留 
不 同 质量 论文 的 差距 ,并且 统计 表明 ,与 ex 
的 结果 匹配 度 较 高 ,因此 是 一 种 可 推广 的 单 篇 论 

影响 力 定量 评价 方法 。 
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表 3 各 学 科 论 文 与 优秀 论文 对 比 


"m 全 部 论文 优秀 论文 
篇 数 篇 均 被 引 频次 ”篇 均 PCSI 篇 均 CNCI 篇 数 篇 均 被 引 频 次 fI PCSI 篇 均 CNCI 
理学 类 246 994 5.69 1.91 1 57 62.17 13.42 8.71 
地 质 学 126 385 6.53 2.02 1 29 102. 09 17.33 9.97 
生物 学 78 399 4.28 1.86 1 16 13. 19 5.74 3.31 
地 球 物理 学 41 430 5.86 1.77 1 10 33.79 15.33 5.87 
天 文学 780 2.66 1.86 1 2 23.5 50.81 9.05 
工学 类 852 905 5.39 1.86 1 74 120. 04 33.23 15.8 
电力 工业 316 618 5.09 1.94 1 19 125.49 43.14 21.36 
自动 化 技术 203 091 5.23 2.05 1 18 109. 65 33.87 24.11 
环境 科学 与 资源 利用 145 035 7.49 1.86 1 8 248. 83 38.52 26.09 
化 学 89 326 5.01 1.73 1 10 12.07 4.26 2:05 
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Ca EPESWI R 1 520 4.03 1.72 1 1 70 43.44 17.38 
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Abstract: | Purpose/significance | The citation count of an article has always been an important factor to quan- 


ate 


tively evaluate its academic influence. However, articles published in different disciplines and years will show 
m differences due to factors such as the number of research articles in this field and the lag of citation. Therefore, 
en comparing two papers, it is difficult to judge the influence of papers simply according to the absolute citation 
counts. Therefore, we design a new calculable mathematical model, so that each paper can have a standardized cita- 
tion index, so as to directly compare the academic influence of papers published in different disciplines and years. 
| Method/process | In this paper, by analyzing the citation distribution law of papers in various disciplines of sci- 
ence and technology in Chinese academic journals in 2006 and 2017 , and adopting the precondition that the citation 


distribution of papers of the same subject is closest to the lognormal distribution, an index for standardizing the cita- 


tion Paper Citation Standardized Index ( PCSI) is proposed. Finally, taking the selection results of The Out- 
standing Papers from Sci-tech Journals of China Association for Science and Technology as an example, an empirical 
comparative study is made between them and all the papers in the same subject. | Method/process | The results 
show that PCSI standardizes the citation counts of papers in different years and different disciplines, which reflects 
the linear difference of citation, thus PCSI is an ideal tool for comparative evaluation of academic influence of single 
paper. 

Keywords: citation counts single paper evaluation Paper Citation Standardized Index paper academic influ- 
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